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摘 要 言语 理解 是 听 者 接受 外 部 语音 输入 并 且 获 得 意义 的 心理 过 程 。 日 常 交流 中 ,听觉 言语 理解 受 多 尺 
节律 信息 的 影响 ,常见 有 韵律 结构 节律 、 语 境 节律 、 和 说 话 者 身体 语言 节律 三 方面 外 部 节律 。 它 们 改变 听 
在 言语 理解 中 的 音素 判别 、 词 汇 感知 以 及 言语 可 懂 度 等 过 程 。 内 部 节律 表现 为 大 脑 内 神经 振荡 ， 其 能 够 表征 
外 部 言语 输入 在 不 同时 间 尺 度 下 的 层级 特征 。 外 部 节律 性 刺激 与 内 部 神经 活动 的 神经 夹带 能 够 优化 大 脑 对 言 
语 刺 激 的 处 理 ， 并 受到 听 者 自 上 而 下 的 认 知 过 程 的 调节 进一步 增强 目标 言语 的 内 在 表征 。 我 们 认为 它 可 能 是 
实现 内 外 节律 相互 联系 并 共同 影响 言语 理解 的 关键 机 制 。 对 内 外 节律 及 其 联系 机 制 的 揭示 能 够 为 理解 言语 这 
种 在 多 层级 时 间 尺 度 上 具有 结构 规律 的 复杂 序列 提供 了 一 个 研究 窗口 。 

Keil PE, 言语 理解 ， 神 经 振荡 ,神经 夹带 ， 自 上 而 下 调节 
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1 引言 滴答 ”声响 和 正常 心脏 的 起 伏 跳动 ,这些 都 具有 

A PEN : oes 时 间 上 的 规律 性 或 近似 规律 性 。 而 言语 的 节律 性 
Pe cdi le 更 偏向 后 者 ， 即 一 个 给 定 的 属性 或 属性 间 的 组 合 
的 拍手 、 踏 步 或 发 声 通常 按照 -- 定 的 周期 循环 往 。 ”让 一 段 时 间 跨 度 中 的 稳定 关系 (Fujii & Wan, 2014; 
复 。 在 人 类 演化 进程 中 节律 无 处 不 在 ,它们 承载 Ramus et al., 1999), 例如 , 树干 中 的 硬结 让 锯 木 
着 信息 传递 的 重要 作用 (Kotz et al., 2018)， 是 社会 a A EE EE 
交流 和 互动 的 重要 媒介 。 长 期 以 来 节律 研究 主 SATA, E l 
要 关注 于 感知 觉 加 工 ,忽视 了 其 在 更 为 复杂 的 言 de dn 
语 理解 中 的 作用 。 直 到 近期 ,研究 者 逐渐 重视 起 FP RKA BEA H A E RNA 
节律 对 言语 理解 的 影响 ， 并 通过 记录 听 者 内 部 的 者 关注 于 语系 间 不 同 言语 层 的 等 时 性 现象 , 据 此 将 
神经 活动 揭示 节律 影响 的 作用 机 制 。 节律 感知 划分 为 重音 计时 (stress-timed)、 音 节 计 时 


Fn 


节律 的 内 在 时 间 组 织 调节 着 个 体 间 沟通 和 互 (syllable-timed) 和 亚 音节 (mora) 三 类 形式 (Ladefoged， 
动 方式 , 口头 言语 作为 人 类 社会 中 重要 的 信息 交 1975; Pike, 1945; Ramus et al., 1999)。 但 这 种 分 类 
流 渠 道具 有 丰富 节律 特性 。 在 判定 对 象 是 否 具 方式 过 于 强调 单元 间 的 等 时 性 ,在 多 语系 的 语音 


节律 特性 时 存在 两 种 方式 ,一 种 强调 时 间 上 规律 。 ”信号 分 析 中 无 法 为 “等 时 理论 "提供 经 验 支持 


性 ， 另 一 种 强调 时 间 上 的 结构 关系 。 前 者 定义 的 (Dauer, 1983; Ramus, 2002; Roach, 1982)。 KER 
节律 可 以 被 称 为 协调 节律 或 周期 性 节律 ， 它 意 于 元 音 持续 时 间 变 化 的 分 类 方法 更 具有 实证 性 ， 


着 固定 间隔 或 模式 的 不 断 重复 (White, 2014; White 它 依 照 口语 中 元 音 所 占 时 间 比 例 的 不 同 试图 建立 


et al., 2012). 例如 ,钟表 转动 过 程 中 发 出 的 “滴答 、 起 一 种 更 为 广泛 的 节律 量化 方式 (Ramus et al., 
1999)。 如 重音 计时 相 比 音节 计时 语系 ,元 音 持续 
时 间 更 加 多 变 (Ling et al., 2000)。 这 些 分 类 方式 说 
明言 语 相 比 于 单一 振荡 器 形成 的 特定 间隔 的 重复 
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2019; Turk & Shattuck-Hufnagel, 2013)。 与 音乐 中 
的 节奏 感 相 近 的 是 , 言语 中 的 单个 属性 ， 如 音调 
变化 或 音节 持续 时 间 长 得 ,也 能 带 来 的 主观 上 的 
节律 感受 (Dellwo, 2006)。 但 只 专注 于 个 别 属 性 的 
度量 并 不 能 才 括 言语 节律 的 所 有 特征 ， 言 语 的 节 
律 感知 还 取决 于 一 系列 其 他 因素 , 包括 整体 响 度 
变化 和 语 速 高 低 等 (Nooteboom，1997)。 这 些 因素 
共同 作用 于 听 者 的 知觉 加 工 过 程 ， 使 听 者 感受 到 
言语 中 的 节律 性 。 

言语 理解 是 听 者 根据 外 部 言语 输入 (如 目标 
语音 ) 和 背景 信息 (如 语 境 或 非 言语 信息 ) 获 得 意义 
的 心理 过 程 ( 杨 玉 芳 , 2021), 包括 音节 、 词 汇 和 句 
子 不 同 层级 的 加 工 (Farbood et al., 2013; Sheng et 
al，2019)。 说 话 者 口语 在 韵律 结构 上 具有 一 定 的 
节律 特性 ， 如 重音 位 置 和 语 速 快慢 等 。 这 些 节律 
的 变化 会 影响 听 者 对 目标 语音 的 理解 水 平 。 当 说 
话 者 的 说 话语 速 或 音节 产生 速率 超出 正常 范围 
(3~8 Hz), 言语 可 懂 度 会 出 现 显 著 地 降低 (Ahissar 
et al., 2001)。 相 比 之 下 ,背景 语 境 节律 则 会 改变 听 
者 的 音节 层面 感知 ， 如 事先 呈现 一 串 有 规律 的 纯 
音 序列 ， 其 呈现 速率 的 不 同 会 改变 个 体感 知 后 续 
出 现 的 辅音 ， 即 节律 较 快 的 纯音 序列 会 使 听 者 将 
上 音 更 多 知觉 为 /w/ 而 不 是 /b/ (Wade & Holt, 
2005)。 背 景 信 息 不 单 表现 在 声学 层面 的 变化 上 ， 


ll 


& Golumbic, 2018; Kösem & van Wassenhove, 2016; 
Zion-Golumbic & Schroeder, 2012)。 神经 振荡 被 认 
为 介 导 了 不 同 的 认 知 加 工 过 程 ,包括 言语 加 工 ， 
抑制 干扰 等 (Jensen et al., 2012; Schroeder & 
Lakatos, 2009)。 近 期 研究 认为 内 部 节律 活动 可 能 
受 外 部 节律 所 影响 ,表现 出 内 外 节律 随时 间 推 移 
相 趋 近 的 现象 (Lakatos et al., 2019; Obleser & 
Kaysetr，2019),， 这 种 现象 被 称 为 神经 夹带 (neural 
entrainment)。 当 内 部 节律 与 外 部 目标 言语 发 生 夹 
带 时 ， 听 者 表现 出 更 好 的 言语 理解 成 绩 (Riecke et 
al., 2018; Vanthornhout et al., 2018). 同时， 言语 理 
解 的 多 种 高 级 认 知 过 程 同 样 能 够 调节 神经 夹带 的 
表现 ， 如 选择 性 注意 (Amal & Giraud, 2012; 
Helfrich et al., 2019)、 先 验 语法 知识 (Ding et al., 
2016; Ding, Melloni et al.，2017) 和 语 境 预期 
(Broderick et al., 2019) 等 。 基 于 此 , 我们 认为 神经 
夹带 可 能 是 言语 理解 过 程 中 实现 内 外 节律 相互 联 
系 与 共同 作用 的 关键 机 制 。 

综 上 , 本 文 首先 论述 三 种 常见 的 外 部 节律 如 
何 影响 听觉 言语 理解 ,说 明 节 律 对 言语 理解 影响 
的 普遍 性 。 接 着 , 我 们 总 结 了 作为 内 部 节律 的 神 
经 振荡 在 言语 理解 中 的 功能 。 最 后 结合 神经 夹带 
在 言语 加 工 中 的 作用 与 其 受 自 上 而 下 认 知 过 程 的 
影响 ,讨论 神经 夹带 在 言语 理解 中 作为 联系 内 外 


由 于 言语 语音 的 时 域 包 络 、 发 声 者 的 声 道 活动 与 
肢体 动作 三 者 之 间 是 高 度 关联 的 ， 这 决定 了 影响 
言语 理解 还 涉及 非 言语 节律 ， 如 说 话 者 的 身体 语 
Fi (body language). 身体 语言 包括 面部 运动 、 身 体 
姿势 、 手 势 等 活动 (Miiller et al., 2013), 说 话 者 的 
面部 运动 往往 与 言语 的 时 域 包 络 起 伏 具 有 相似 的 
节律 特性 ， 这 有 助 于 听 者 更 好 理解 言语 信息 
(Ghazanfar & Takahashi, 2014)。 据 此 本 文 提 及 的 


节律 机 制 的 可 能 性 。 未 来 研究 需要 从 不 同 层级 、 
不 同 尺 度 和 不 同 背 景 中 去 探究 节律 在 听觉 言语 理 
解 中 的 意义 。 


2 外 部 节律 与 言语 理解 
言语 产生 是 随 着 时 间 推 移 而 展开 , 这 使 得 时 


间 顺 序 对 听 者 理解 信息 至 关 重 要 。 为 了 理解 言语 
内 容 ， 听 者 需要 根据 外 部 节律 特征 从 持续 的 语音 


外 部 节律 定义 为 听觉 言语 理解 过 程 中 能 够 对 言语 
理解 产生 影响 的 客观 世界 中 具有 节律 特征 的 物理 
输入 。 我 们 将 围绕 言语 理解 涉及 的 言语 输入 和 和 背 
景 信息 所 包含 的 三 类 常见 外 部 节律 ,分别 为 韵律 
结构 节律 、 语 境 节 律 和 说 话 者 身体 语言 节律 ， 曾 
述 其 在 言语 理解 中 对 音素 、 词 汇 和 句子 三 个 层级 
的 影响 ， 借 此 说 明 外 部 节律 对 言语 理解 的 作用 。 

听 者 大 脑 是 如 何 利 用 外 部 节律 促进 或 改变 言语 
理解 的 呢 ? 这 一 过 程 被 认为 和 内 部 节律 ， 即 一 系列 
颅 内 神经 元 集群 节律 性 地 、 同 步 性 地 电 活 动产 生 的 
神经 振荡 (neural oscillation) 存 在 明显 联系 (Haegens 


流 中 感知 音素 、 音 节 、 单 词 和 短语 的 时 间 组 织 
(Ding & He, 2016; Kotz & Schwartze, 2010; Peelle 
& Davis, 2012)。 此 部 分 我 们 依据 言语 输入 和 背景 
信息 将 影响 言语 理解 的 外 部 节律 划分 为 三 种 常见 
类 型 ， 主 要 涉及 韵律 结构 节律 、 语 境 节 律 和 说 话 
者 身体 语言 节律 
21 韵律 结构 节律 改变 甸子 可 懂 度 

言语 的 韵律 结构 节律 在 阅读 和 口语 交流 中 表 
现 各 不 相同 。 视 觉 阅读 中 词 与 词组 合 而 形成 的 音 
节 数 目的 搭配 会 动态 影响 局 部 短语 分 析 和 整体 句 
子 整 合 (Luo & Zhou, 2010; Luo et al., 2015)， 视 觉 
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输入 为 主 的 阅读 并 不 能 直接 提供 韵律 结构 信息 而 
需要 读者 借助 内 部 表征 如 默读 等 方式 实现 。 此 部 
分 主要 关注 于 听觉 场景 中 外 部 节律 的 韵律 结构 节 
律 ， 即 口语 中 的 音节 长 短 、 音 节 间 间隔 和 重音 分 
布 等 特征 上 (Dellwo, 2006; Ramus et al., 1999; 方 
BU 等 , 2021)。 

音节 间 间 隔 能 够 直接 影响 言语 可 懂 度 。 研 究 
者 通过 对 句子 进行 时 间 上 的 压缩 降低 了 音节 间 停 
顿时 间 ， 导致 整体 语 速 加 快 ， 结果 发 现 听 者 对 句 
子 的 可 懂 度 出 现 了 剧烈 的 下 降 (Bosker & Ghitza, 
2018; Ghitza & Greenberg, 2009)。 听 者 表现 出 难以 
加 工 韵律 结构 节律 被 破坏 的 言语 刺激 ,但 这 可 能 
是 源 自 于 句子 加 工 依赖 于 特定 节律 的 感觉 输入 ， 
又 或 者 时 间 压 缩 后 音节 内 的 声学 结构 被 破坏 使 听 
者 难以 识别 。 为 了 回答 这 一 问题 ， 研 究 者 将 压缩 
后 的 言语 波形 进行 等 距 的 切 分 ， 切 分 后 每 段 内 的 
音节 仍旧 处 于 压缩 状态 ,而 后 在 每 个 片段 后 加 入 
一 段 无 声 的 间隔 以 产生 人 为 的 节律 特性 。 听 者 加 
工 这 类 句子 的 可 懂 度 得 到 了 恢复 。 需 要 注意 的 是 ， 
只 有 在 插入 的 间隔 是 以 固定 规律 形式 时 言语 可 懂 


(Ding & He, 2016). 

除了 停顿 的 长 短 外 ,停顿 的 位 置 也 被 认为 能 
够 改变 听 者 对 于 言语 的 节律 感知 ， 主 要 涉及 口语 
句子 中 韵律 边界 (prosodic boundary)。 这 些 边界 与 
感知 停顿 、 边 界 前 音节 延长 和 短语 末尾 的 音 高 都 
具有 联系 (Li & Yang, 2009, 2010)， 所 以 韵律 边界 
的 感知 能 够 促进 听 者 将 言语 切 分 成 不 同 层次 的 组 
块 ， 并 与 口语 的 感知 流畅 性 和 可 理解 性 密切 相关 
Orhi 等 , 2021; FRE 等 , 2010), 汉语 作为 声调 
言语 在 口语 的 结构 分 析 、 语 义 加 工 和 情绪 感知 等 
方面 均 受 到 韵律 边界 的 影响 (Li & Yang, 2010; Li, 
Zhang et al., 2019)。 近 期 研究 以 汉语 中 同时 可 理解 
为 偏 正 结构 (modifier noun constructiom) 或 述 宾 结 
构 (narrative object structure) 的 歧义 短语 为 材料 发 
现 ， 当 听 者 注意 到 韵律 信息 时 ， 韵律 边界 会 改变 
听 者 对 歧义 短语 的 结构 分 析 过 程 (Li, Zhang et al., 
2019)。 韵律 边界 能 够 在 歧义 语 境 下 帮助 听 者 进行 
句 式 结构 的 分 析 , 通过 消除 结构 上 的 歧义 从 而 促 
进言 语 可 懂 度 。 此 外 ,汉语 韵律 中 的 重音 位 置 还 
能 够 改变 听 者 对 言语 中 不 同位 置 词汇 的 选择 性 注 


度 才 会 恢复 , 无 规律 的 间隔 则 没有 任何 效应 
(Ghitza & Greenberg, 2009)。 所 以 听 者 对 于 言语 的 
理解 依赖 于 言语 自身 节律 特性 , 在 压缩 后 的 句子 
中 加 入 无 声 间隔 的 过 程 可 以 理解 为 是 对 句子 内 音 
节 的 “重新 打包 ”(repackage)， 即 将 时 域 上 的 波形 
分 割 成 不 同 部 分 。 这 些 包 以 规定 的 速率 传导 至 双 
E, 协助 听 者 预测 包 内 音节 的 最 大 信息 传输 速率 
从 而 在 一 定 程度 上 恢复 了 言语 可 理解 性 。 

韵律 结构 节律 对 可 懂 度 的 影响 反映 了 听觉 系 
统 在 处 理 不 同 传输 速率 的 信息 流 时 的 自 适应 性 。 
自然 言语 中 ， 音 节 间 停顿 的 长 短 主要 涉及 到 两 个 
方面 因素 (Ghitza & Greenberg, 2009), 一 个 是 人 类 
发 音 器 官 的 生物 力学 特性 和 大 脑 的 神经 动力 学 特 
性 。 发 音 器 官 /大 脑 内 在 振荡 导致 口唇 运动 和 言语 
的 时 域 包 络 大 约 为 5 Hz 的 节律 ， 以 此 调制 沉默 时 
间 的 长 短 ; 另 一 个 因素 是 言语 的 层次 韵律 结构 。 
例如 ， 当 一 个 音节 在 一 个 单词 内 时 ， 它 后 面 的 停 
顿 期 通常 很 短 , 但 当 它 与 一 个 更 高 层 的 语言 结构 
(例如 韵律 词 .韵律 短语 和 语调 短语 ) 的 边界 重合 时 ， 
沉默 会 逐渐 拉 长 。 言 语 中 的 沉默 给 大 脑 提 供 了 额 
外 的 时 间 来 处 理 间 院 之 前 的 音节 ， 当 沉默 时 间 被 
缩小 或 扩大 并 违反 自然 语言 的 时 间 规 律 时 , 会 增 
加 听 者 加 工 所 需 的 负载 ,进而 破坏 句子 的 可 懂 度 


意 , 使 得 重音 后 的 词汇 被 更 强 的 加 工 (Li & Ren, 
2012)。 
2.2 ” 语 境 节律 改变 词汇 与 音素 感知 

目标 言语 前 后 的 声学 场景 我 们 一 般 会 称 为 语 
境 (context)， 可 以 在 时 间 上 与 目标 语音 相 邻 或 不 
相 邻 (Stilp, 2020)。 语 境 对 言语 理解 的 影响 主要 源 
于 语 速 快慢 ,这 是 因为 在 词汇 感知 或 边界 切 分 中 
听 者 需要 依赖 语 境 中 提供 的 相对 速率 线索 (Brown 
et al., 2011; Dilley et al., 2010; Dilley & McAuley, 
2008)。 说 话 者 语 速 变化 一 般 通 过 句子 中 元 音 和 辅 
音 间 间隔 调节 来 实现 (Dellwo，2006), 而 这 两 类 音 
素 间 间隔 的 分 布 能 够 反应 语句 中 节律 性 (Ling et 
al., 2000; Ramus et al., 1999)。 当 说 话 者 的 语 速 较 
慢 时 ， 听 者 容易 将 句子 中 所 包含 的 一 个 虚词 (如 : 
or 或 are) 忽 略 ， 即 在 知觉 层面 表现 出 词汇 消失 的 
现象 (Dilley & Pitt, 2010)。 有 趣 的 是 ， 如 果 把 语 速 
加 快 听 者 反而 会 知觉 到 句子 中 本 来 没有 的 虚词 。 
这 种 现象 会 随 着 语 境 时 间 拉 长 而 加 剧 ，Baese- 
Berk 等 人 (2014) 同 时 操纵 了 全 局 语 境 (global-context， 
整 段 材料 ) 的 语 速 和 远 端 语 境 (distal-context， 目 标 
词 所 在 句子 ) 的 语 速 ， 发 现 随 着 时 间 推 移 全 局 语 速 
对 目标 单词 数量 感知 的 影响 增 大 ， 即 随 着 语 速 的 
减 慢 单词 数量 感知 呈现 下 降 趋 势 。 这 些 发 现 表 明 
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随 着 语 境 节 律 的 加 速 或 减 慢 ， 听 者 对 言语 中 词汇 
数量 的 知觉 会 向 补偿 方向 移动 以 确保 感知 保持 稳 
定 ， 即 听 者 会 自发 调整 对 于 后 续 出 现 词汇 的 持续 
时 间或 者 边界 位 置 的 主观 感知 来 契合 整体 语 境 节 
律 。 值 得 注意 的 是 ,这 一 现象 可 能 特异 于 语 境 内 
容 ， 人 为 降低 语 境 内 语音 的 可 懂 度 或 者 采用 其 他 
音调 序列 时 ， 听 者 对 单词 数量 的 识别 将 不 受 影响 
(Pitt et al., 2016). 

语 速 除了 改变 听 者 对 语 境 下 词汇 数量 的 判断 ， 
还 会 影响 单词 内 元 音 和 辅音 的 辨识 ， 这 是 因为 言 


et al., 2014; Rimmele et al., 2018)。 

说 话 者 发 音 器 官 内 的 一 系列 协作 运动 体现 在 
声 道 的 开放 和 缩小 的 循环 中 (Abbs et al., 1984; 
Browman & Goldstein, 1992; Cho et al., 2019; 
Proctor et al., 2019)。 例 如 , 在 发 音 /b/ 时 需要 封闭 
声 道 的 前 部 ， 因 此 口唇 和 下 巴 的 运动 之 间 有 一 个 
协同 过 程 ， 以 实现 完全 闭合 。 目 前 许多 研究 都 集 
中 在 言语 中 的 声音 和 运动 的 相互 作用 上 ， 如 听 者 
在 观测 说 话 者 的 口 导 运动 时 , 通过 人 为 改变 运动 
速率 会 影响 听 者 对 实际 言语 的 语 速 判定 (Bosker, 


语感 知 很 大 程度 上 依赖 于 从 特定 频率 信息 中 恢复 
音 位 线索 (Di Liberto et al., 2019; O'Brien et al., 
2020)。 例 如 , 一 个 快速 的 语音 环境 会 使 听 者 更 偏 
好 于 将 一 个 模糊 元 音 判断 为 长 元 音 (如 : /a，a:/)， 


Peeters et al., 2020)。 而 在 多 说 话 人 场景 中 ,人 研究 
者 还 发 现 说 话 者 的 口唇 运动 信息 能 够 提升 听 者 对 
目标 言语 的 识别 成 绩 (Wu et al., 2013)。 听 者 对 言 
语 的 加 工 除 了 利用 说 话 者 的 口 层 运动 ,还 会 根据 


因为 相 邻 语 境 内 的 音节 持续 时 间 会 改变 后 续 音 贡 
持续 时 间 的 主观 评估 ， 快 节律 的 语 境 会 使 听 者 对 
客观 时 间 的 判断 变 短 使 后 续 元 音 听 起 来 相对 较 长 
(Bosker, Sjerps et al., 2020; Kösem et al., 2018; 
Reinisch, 2016)。 语 境 速率 对 音素 间 语 音 边界 的 影 
啊 被 称 为 语音 边界 移 位 (phonetic boundary shift, 
PBS) (Maslowski et al., 2019; Reinisch, 2016)。 这 
种 现象 同样 发 生 在 辅音 感知 中 ， 即 较 快 节律 的 语 
境 对 /ba/-/wa/ 的 模糊 音节 判断 中 ， 听 者 会 更 大 可 
能 性 认为 是 /wa/ (Wade & Holt, 2005)。 言语 中 音素 
知觉 受 语 境 带 来 的 外 部 节律 影响 ,由 于 在 非 言语 
环境 下 这 种 现象 同样 会 被 诱发 ， 如 纯音 序列 
(Bosker，2017)， 所 以 这 种 速率 依赖 的 知觉 被 认为 
涉及 一 般 的 听觉 过 程 。 

知觉 从 来 不 是 对 感觉 信息 的 客观 登记 。 就 像 
任何 形态 的 感知 一 样 ， 言 语感 知 是 相对 于 语 境 的 ， 
它 会 依据 先前 的 经 验 和 背景 发 生 改 变 (Stilp， 
2020)。 上 述 研究 表明 在 外 部 节律 的 诱导 下 ， 听 者 
对 给 定语 境 下 感知 到 的 单词 数量 和 音节 判别 会 发 
生 改 变 。 这 些 结果 有 助 于 解释 在 言语 信号 失真 情 
况 下 , 语音 识别 能 力 下 降 的 原因 。 
2.3 ”身体 语言 节律 对 言语 理解 影响 

身体 语言 是 一 种 非 语 言 交 流 模式 , 说话 者 通 
过 面部 活动 和 手 部 摆动 等 方式 辅助 自身 的 信息 表 
达 (Holler & Levinson, 2019)。 在 面对面 的 交流 中 
听 者 同时 感知 到 的 说 话 者 的 身体 活动 和 言语 节律 
往往 在 特定 频率 上 匹配 ， 这 有 利于 它们 之 间 的 耦 
合 ， 就 像 * 手 舞 足 蹈 ”的 演讲 者 会 更 容易 让 听众 关 
注 于 演讲 内 容 (Morillon & Baillet 2017; Morillon 


= 


E A AE Mie oy S (lani & Bucciarelli, 
017; Bk, 2020)。 说 话 者 为 了 表明 言语 中 的 重点 
FE 往 会 利用 手势 的 摆动 突显 重音 位 置 , 研究 者 发 
现 说 话 人 的 手 部 两 相 运 动 ( 上 下 摆动 手臂 ) 会 显著 
改变 听 者 对 词汇 中 的 重音 感知 位 置 (Bosker & 
Peeters，2021)。 这 些 结果 都 在 说 明言 语 知 觉 不 仅 
受 听觉 层面 外 部 节律 的 影响 还 受 说 话 者 的 非 听觉 
的 运动 节律 的 影响 。 

听 者 能 够 利用 非 声学 的 身体 语言 节律 信息 促 
进言 语 理解 ， 可 能 说 明 听 者 和 说 话 者 之 间 存 在 某 
种 重合 的 先 验 知识 。 言 语 知觉 的 运动 理论 (notor 
theory of speech perception) 认 为 说 话 者 和 听 者 会 
共享 一 套 相 似 的 神经 运动 指令 (neuromotor 
command)， 当 听 者 加 工 说 话 者 的 运动 信息 并 将 其 
决 射 到 自身 的 指令 时 , 这 将 有 助 于 听 者 理解 说 话 
者 的 言语 内 容 (Poeppel & Assaneo, 2020)。 

综 上 ， 外 部 节律 对 听觉 言语 理解 的 影响 存在 
于 广泛 听觉 与 非 听觉 刺激 中 , 语 境 语 速 能 够 改变 
听 者 对 后 续 音 素 的 判别 和 词汇 数量 的 估计 ， 言 语 
内 在 节律 能 够 改变 句子 可 懂 度 的 高 低 ， 身 体 语言 
节律 可 以 改变 重音 位 置 感知 。 但 是 我 们 的 大 脑 是 
如 何 利 用 这 些 节 律 信息 指导 言语 感知 ， 接 下 来 我 
们 将 从 神经 元 集群 的 节律 性 振荡 方面 进行 讨论 。 
3 外 部 节律 影响 言语 理解 的 神经 机 制 
早期 关于 听觉 言语 理解 的 大 脑 内 部 过 程 研究 
主要 采用 事件 相关 电位 (event-related potentials, 


ERPs) 和 功能 磁 共 振 成 像 (functional magnetic 
resonance imaging, fMRD 技 术 展 开 。 音节 探 测 、 言 
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语 理 解 涉及 N1-P2、N400、P600 等 事件 相关 电位 
成 份 的 参与 (Bridwell et al., 2018; Broderick et al., 
2018; Morris & Klerke, 2016)。 近 年 来 随 着 研究 方 
法 的 改进 , 通过 颅 内 电极 记录 和 时 频 分 析 等 手段 ， 
大 脑 内 自发 的 神经 振荡 开始 成 为 关注 的 对 象 ， 从 
神经 振荡 层面 揭示 听觉 言语 理解 的 研究 越 来 越 
多 。 本 部 分 将 关注 言语 加 工 中 大 脑 的 内 部 节律 变 
化 ,以 及 神经 夹带 现象 在 其 中 的 作用 。 
3.1 听 者 的 内 部 节律 一 一 神经 振荡 

言语 本 身 的 节律 特性 作为 其 内 在 属性 是 如 何 
在 大 脑 中 得 以 表征 ， 以 及 外 部 节律 如 何 影响 言语 
感知 ?为 了 回答 这 些 问 题 , 研究 者 开始 关注 大 脑 内 
部 节律 活动 的 作用 (Ding et al., 2016; Zion-Golumbic 
& Schroeder, 2012; Haegens & Golumbic, 2018)。 
在 早期 ， 通 过 头皮 记录 到 的 电 活动 变化 一 直 被 认 
为 是 大 脑 活动 的 背景 噪音 ， 后 来 研究 者 开始 意识 
到 神经 元 集群 的 振荡 活动 体现 了 神经 元 兴奋 性 的 
周期 变化 (Bishop, 1933; Raichle, 2010)， 如 振荡 的 
瞬时 相位 反映 了 神经 集群 在 给 定时 刻 的 兴奋 性 水 
平 (excitability level)。 当 振荡 的 兴奋 性 阶段 被 调整 
使 神经 元 集群 高 兴奋 性 与 任务 相关 的 感官 输入 相 
一 致 ， 对 齐 的 输入 将 得 到 最 优 处 理 (Schroeder & 
Lakatos，2009)， 所 以 大 脑 的 内 部 节律 可 能 是 完成 
外 部 节律 性 刺激 加 工 的 理想 工具 。 

神经 振荡 依照 频率 高 低 的 常 被 划分 为 delta 
频带 (1~4 Hz) 、theta 频带 (4~10 Hz)、alpha 频带 
(8~15 Hz), beta 频带 (12~30 Hz 和 gamma 频带 
(30~200 Hz)。 在 听觉 言语 加 工 中 , theta 频带 振荡 
被 认为 能 够 将 输入 的 连续 语音 信号 分 解 为 离散 的 
单词 单元 ， 而 delta 频带 振荡 则 把 分 割 的 单词 结合 
为 更 高 层 的 基于 语法 或 语义 组 合 的 言语 结构 
(Kösem & van Wassenhove, 2016; Ding et al., 2016). 
近期 在 汉语 的 韵律 语 境 加 工 中 也 发 现 ， 韵律 节律 
可 能 通过 增强 与 语音 加 工 相 关 的 频带 活动 促进 语 


ni 


脑 内 的 低频 振荡 (如 theta 频带 ) 可 能 反应 了 音节 
面 加 工 ， 而 高 频 振荡 (如 gamma 频带 ) 更 多 表征 了 
音素 或 发 音 特 征 等 信息 ， 频 带 间 的 相互 耦合 反应 
了 远 距 离 脑 区 信息 交流 以 及 协调 全 局 神经 网 络 的 
信息 整合 (Baltus & Herrman，2016)。 在 Al 中 ， 
Gamma 频带 振幅 随 theta 振荡 的 相位 系统 变化 ， 
theta 振幅 还 与 delta (1~2 Hz) 相 位 耦合 (Lakatos et 
al., 2005; Lakatos et al., 2007)。 有 趣 的 是 这 类 效应 
受 言语 可 懂 度 的 影响 相 比 于 倒 放 言语 (无 法 理解 
的 )， 加工 自然 言语 (可 理解 的 ) 时 ， 听 者 的 左 侧 额 
下 区 的 delta 频带 和 中 央 前 回 的 theta 频带 才能 够 
调节 左 侧 听 觉 区 域 25 Hz 振荡 的 相位 活动 (Park et 
al.，2015)。 所 以 不 同 节律 的 神经 振荡 能 够 表征 言 
语 刺 激 中 不 同时 间 尺 度 的 层级 信息 , 通过 相互 协 
调 对 这 些 信息 进行 整合 处 理 ， 完 成 听觉 言语 理解 
(Kayser et al., 2015)。 
3.2 ”神经 夹带 连接 内 外 节律 

外 部 节律 性 刺激 输入 时 ， 听 者 大 脑 会 记录 到 
与 外 部 节律 在 相位 上 相对 齐 或 相同 频带 下 能 量 增 
大 的 现象 (K6sem et al., 2018; Obleser & Kayser, 
2019)。 这 些 过 程 被 认为 可 能 是 由 于 持续 的 神经 振 
荡 的 相位 被 外 部 节律 刺激 所 “ 重 置 ”(reset) 而 产生 
的 (Lakatos et al., 2009), 我 们 通常 将 这 种 内 部 节 
律 与 外 部 节律 的 时 间 对 齐 现象 称 为 神经 夹带 。 研 
究 者 一 般 认为 神经 夹带 的 发 生 是 基于 神经 系统 自 
身 具 有 的 节律 性 活动 ， 它 们 能 够 在 缺乏 外 界 连续 
性 刺激 输入 的 情况 下 维持 活动 , 所 以 夹带 能 够 在 
外 部 刺激 消失 后 维持 一 段 时 间 (K6sem et al., 2018; 
Tass et al., 1998)。 常 见 的 神经 夹带 计算 方法 包括 
外 部 刺激 和 大 脑 活动 之 间 的 相位 相干 性 ， 以 及 以 
正 向 (如 时 间 响 应 函数 ) 或 反 向 (如 刺激 重 构 ) 的 方 
式 连 接 大 脑 和 刺激 的 回归 模型 (Fiedler et al., 2019; 
Fuglsang et al., 2017; Zhang & Ding, 2017)。 所 以 
神经 夹带 有 时 也 被 称 为 同步 化 (synchronization)， 


音 理解 。 相 比 于 不 规则 韵律 节律 的 语 境 ， 规 则 韵 
律 节律 能 够 诱发 听 者 在 加 工 目 标 名 词 前 的 beta 频 
带 和 目标 名 词 后 的 alpha 频带 增强 (Li, Shao et al., 
2019)。 而 更 高 频 的 gamma 频带 的 包 络 变化 则 被 
发 现 能 够 表征 语音 在 功率 谱 上 的 多 层次 编码 并 受 
到 听 者 目标 选择 的 影响 (Zion-Golumbic & Schroeder, 
2012; Mesgarani & Chang, 2012)。 
与 言语 中 的 层级 结构 相似 , 不 同 频 率 的 神经 
振荡 也 趋向 于 以 一 种 层级 化 的 模式 相互 类 合 。 


或 外 部 刺激 为 听觉 言语 时 还 被 称 为 言语 追随 
(speech tracking) 反 应 。 

在 言语 理解 中 ， 外 部 节律 可 能 源 于 音节 、 词 
汇 边 界 或 其 他 声学 线索 。 神 经 夹带 能 够 通过 这 些 
外 部 节律 特征 完成 语音 分 析 ， 从 连续 的 声音 信号 
中 提取 离散 的 语言 成 分 (Haegens & Golumbic, 
2018; Obleser & Kayser, 2019)。 经 典 神经 夹带 观点 
认为 产生 夹带 的 神经 活动 相位 与 言语 中 韵律 或 音 
节 边 界 一 致 (Giraud & Poeppel, 2012; Peelle & 
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Davis，2012)， 例 如 通过 delta 节律 振荡 追踪 韵律 
线索 (Bourguignon et al., 2013), theta 节律 振荡 反 
映 音节 和 词汇 结构 (Doelling et al., 2014; Ding et 
al., 2016). Luo 和 Poeppel (2007) 通 过 记录 听 者 在 
加 工 自然 言语 情况 下 的 皮层 脑 磁 图 信号 发 现 ， 大 
脑 的 theta 节律 振荡 的 相位 模式 稳定 地 追随 口语 
句子 中 的 音节 节律 。 此 研究 还 发 现 当 言语 与 噪声 
相互 峙 合 后 ， 外 部 言语 的 节律 性 丧失 以 及 句子 可 
懂 度 下 降 会 破坏 听 者 的 神经 夹带 反应 。 除 了 其 他 
声学 刺激 干扰 外 ,言语 本 身 的 语 速 也 会 影响 神经 
夹带 , 一 旦 语 速 过 快 ， 听 者 将 难以 跟 上 句子 内 容 
使 夹带 被 中 断 (Ahissar et al., 2001)。 有 趣 的 是 ， 对 
于 言语 内 的 物理 声学 特征 的 夹带 是 自动 的 ， 如 睡 
眠 期 间 也 能 记录 到 夹带 (Ding & He, 2016; Makov 
et al., 2017)。 但 涉及 句子 内 的 语言 学 单元 则 需要 
言语 被 注意 或 者 理解 时 才能 够 被 夹带 (Brodbeck 
et al., 2018)。 虽 然 可 理解 性 与 语 速 快慢 的 研究 反 
映 神经 夹带 在 言语 处 理 中 的 作用 , 但 此 类 研究 仍 
旧 存 在 一 些 问题 。 降 低语 音 可 理解 性 通常 涉及 刺 
激 声 学 的 变化 ， 因 此 观察 到 的 语音 跟踪 反应 的 差 
异 可 能 与 改变 的 声音 输入 有 关 (Ding & Simon, 2012; 
Kösem & van Wassenhove, 2017; Steinmetzger & 
Rosen, 2017)。 所 以 未 来 研究 中 ， 探 索 言 语 理解 与 
神经 夹带 的 关系 , 需要 仔细 控制 语音 刺激 的 声学 
特性 。 
在 面对面 的 交谈 中 , 听 者 言语 理解 受 身体 语 
言 的 影 啊 (Morillon & Baillet, 2017; Morillon et al., 
2014; Poeppel & Assaneo, 2020)。Park 等 人 (2016) 
发 现 这 一 过 程 同样 涉及 说 话 者 运动 与 听 者 神经 活 
动 的 夹带 过 程 。 他 们 通过 计算 说 话 者 口唇 开 合 面 
积 随时 间 变 化 模式 与 听 者 初级 视听 皮层 和 左 侧 运 
动 区 的 神经 活动 ， 发现 二 者 在 1 Hz 上 有 显著 的 夹 
带 效应 ， 并且 目标 言语 的 理解 程度 能 被 夹带 的 同 
步 性 所 预测 。 听 者 大 脑 对 身体 言语 的 夹带 使 听 者 
能 够 实时 利用 运动 区 “模拟 ”的 发 声 过 程 帮助 听觉 
区 预测 即将 输入 的 感觉 刺激 ， 进 而 促进 言语 理解 
(Morillon & Baillet, 2017; Morillon et al., 2014)。 
神经 夹带 反映 了 节律 信息 对 言语 理解 的 影 
响 。 言 语 在 时 间 结 构 上 的 规律 性 作为 外 部 节律 被 
听 者 感知 时 ， 大 脑 内 部 神经 活动 的 重 置 使 内 部 节 
律 的 变化 模式 与 外 部 节律 相似 ， 这 使 得 相近 相位 
模式 下 的 神经 活动 成 为 言语 理解 的 理想 环境 
(Haegens & Golumbic, 2018; Schroeder & Lakatos, 


2009)。 然 而 ， 神 经 夹带 并 非 单一 对 外 部 节律 信息 
的 被 动 追 随 ， 它 还 受 听 者 主观 调控 的 影响 。 我 们 
将 从 言语 理解 过 程 中 涉及 的 几 个 自 上 而 下 的 认 知 
过 程 对 神经 夹带 的 影响 ,进一步 探讨 神经 夹带 在 
言语 理解 的 作用 。 


4 ” 自 上 而 下 调节 神经 夹带 对 言语 理解 的 
作用 


神经 夹带 能 根据 听 者 当前 的 认 知 状态 动态 选 

择 或 增强 与 外 部 输入 的 同步 性 ， 便 于 大 脑 更 有 针 
对 性 的 预测 目标 信息 (Lakatos et al., 2019)。 在 言语 
理解 过 程 中 ， 自 上 而 下 的 调控 可 能 源 于 听 者 的 选 
择 性 注意 (Helfrich et al., 2019; Lakatos et al., 2013; 
Obleser & Kayser, 2019), 语法 的 先 验 知识 (Ding et 
al., 2016; Ding, Melloni et al., 2017) 和 言语 语 境 产 
生 的 预期 (Broderick et al., 2019) 等 认 知 过 程 。 
草 休 的 声学 环境 使 目标 言语 理解 变 得 困难 ， 
选择 性 注意 有 助 于 放大 注意 刺激 流 与 非 注 意 刺激 
间 的 夹带 差异 ， 前 者 与 神经 活动 的 相位 同步 有 利 
于 获取 更 多 的 加 工资 源 , 后 者 则 传递 到 了 非 最 优 
相位 阶段 使 其 更 容易 被 抑制 ， 这 有 助 于 哮 杂 环境 
中 的 言语 理解 (Calderone et al., 2014; Knudsen, 
2018; Lavie, 1995; Zion-Golumbic & Schroeder, 
2012)。 多 说 话 者 的 场景 中 ， 听 者 选择 性 注意 单一 
说 话 人 的 言语 内 容 时 ， 听 觉 皮 层 区 域 ( 如 : 里 上 回 ) 
和 高 层级 的 脑 区 (如 : 招 下 皮层 ， 杜 前 部 ) 都 发 现 增 
强 了 神经 振荡 的 振幅 调制 ， 高 级 皮层 区 域 还 表现 
出 更 明显 的 选择 性 增强 对 注意 言语 夹带 的 现象 
(Golumbic et al., 2013)。 此 外 , 选择 性 注意 还 有 助 
于 身体 语言 促进 听觉 言语 理解 过 程 。 当 听 者 更 加 
ERAN Bias, Aiea H 
运动 间 的 夹带 增强 ,并 且 这 种 增强 能 直接 预测 
语 理解 的 准确 性 (Park et al., 2016)。 所 以 不 同 脑 
间 的 神经 夹带 能 够 通过 选择 性 注意 建立 起 时 间 上 
的 耦合 ， 提 高 脑 区 间 的 信息 整合 的 精确 度 。 

言语 理解 过 程 需要 通过 语音 特征 检索 对 应 的 
词汇 信息 ， 再 基于 听 者 先 验 的 语法 知识 组 合成 短 
语 和 句子 (Poeppel et al., 2008; Phillips et al., 
2003)。 在 排除 口语 韵律 和 统计 层面 线索 的 影响 下 ， 
研究 者 发 现 不 同 频率 的 皮层 活动 能 够 同时 追随 言 
语 中 单词 、 短 语 和 句子 等 不 同 层 次 的 抽象 语言 结 
构 的 时 间 进 程 (Ding et al., 2016), 不 同时 间 尺 度 的 
言语 单元 的 同步 神经 夹带 可 能 预示 着 一 种 层级 髓 
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入 模式 ， 即 更 小 的 言语 单元 表征 仍 入 在 更 高 层次 
的 言语 单元 表征 下 (Christiansen & Chater, 2015; 
Lerner et al., 2011; Poeppel et al., 2008)， 从 而 实现 
言语 中 不 同 层级 信息 间 的 及 时 整合 (Ding, Patel et 
al., 2017; Ding et al., 2016)。 当 听 者 理解 言语 内 容 
后 ,依据 上 下 文 产生 的 语 境 预 期 同样 能 够 影响 之 
后 出 现 词汇 的 语音 包 络 的 神经 夹带 程度 ， 即 词汇 
的 语义 与 上 下 文 越 接近 时 目标 词汇 的 皮层 脑 电 信号 
的 神经 夹带 越 强 (Broderick et al., 2019)。 这 表明 神 
经 夹带 还 受到 听 者 基于 上 下 文 预测 的 影响 ,能够 
最 大 限度 地 提高 未 来 事件 的 可 预测 性 ， 并 精确 地 
安排 资源 的 分 配 时 间 (Henry et al., 2014)， 从 而 促 
进 即 将 到 来 的 单词 的 初级 编码 阶段 处 理 。 这 一 机 制 
还 解释 了 为 什么 外 部 可 预测 的 节律 性 刺激 相 比 不 
可 预测 的 非 节 律 性 刺激 更 容易 被 感知 (Mathewson 
et al., 2010; Rohenkohl et al., 2012). 

神经 夹带 受 听 者 自 上 而 下 认 知 过 程 的 影响 能 
够 更 好 的 表征 复杂 听觉 环境 中 的 节律 信息 ,促进 
目标 言语 的 理解 。 它 可 以 作为 一 个 “滤波 器 ”， 根据 
听 者 的 选择 性 注意 减弱 或 消除 高 级 脑 区 在 哮 杂 环 
境 中 对 非 注 意 语音 流 的 神经 响应 ; 还 可 以 作为 一 
个 “增益 器 ”， 依 据 听 者 的 预期 来 增强 言语 中 相应 
成 分 的 表征 和 加 工 ; 最 后 神经 夹带 可 以 作为 一 个 
“连接 器 ”， 根 据 听 者 已 有 的 先 验 知识 完成 言语 内 
不 同 层 级 间 成 分 或 跨 脑 区 间 信 息 的 整合 。 所 以 听 
者 的 主动 调控 使 言语 理解 过 程 中 的 关键 信息 具有 
更 大 的 可 能 性 处 于 神经 元 集群 活动 的 最 佳 兴奋 性 
水 平 ， 从 而 获得 更 多 的 加 工资 源 。 据 此 我 们 认为 
神经 夹带 可 能 为 外 部 节律 和 内 部 节律 提供 了 一 座 
联系 的 “桥梁 ”。 


5 讨论 


谈 及 言语 节律 时 , 研究 者 往往 从 语音 信号 的 
时 域 层面 进行 讨论 ， 如 语音 包 络 或 声学 单位 的 持 
续 时 间 等 。 这 些 对 象 的 起 伏 变 化 构成 了 听 者 对 外 
部 节律 的 感知 ， 是 构建 可 理解 言语 过 程 所 必需 
的 。 外 部 节律 能 够 帮助 听 者 关注 单词 或 它们 的 组 
成 元 素 (如 音素 或 音节 ) 进 而 促进 理解 。 听 者 大 脑 的 
神经 振荡 作为 内 部 节律 ,能 够 表征 与 整合 言语 内 
不 同 层级 信息 。 而 神经 夹带 可 能 是 实现 言语 理解 
中 内 外 节律 相互 联系 的 关键 。 
51 ”外 部 节律 促进 言语 理解 

口语 中 的 词汇 间 停 顿 、 停 顿 位 置 等 韵律 结构 


节律 影响 听 者 在 口语 加 工 中 可 懂 度 的 高 低 以 及 对 
歧义 语 境 的 结构 分 析 , 合适 的 韵律 结构 节律 能 够 
促进 正确 的 言语 理解 ,恢复 难以 理解 的 语义 内 容 
(Ghitza & Greenberg, 2009; Li & Yang, 2009, 
2010)。 而 于 不 同 的 语 速 的 语 境 则 改变 听 者 对 随后 
出 现 的 音节 判别 乃至 词汇 数量 感知 (Dilley & Pitt, 
2010; Bosker, Sjerps et al., 2020; Reinisch, 2016)。 
此 外 ,说 话 者 在 言语 产生 过 程 中 伴随 的 同步 运动 
行为 能 够 通过 视觉 通道 同时 与 言语 信息 传人 听 者 
大 脑 。 这 些 非 听觉 的 运动 节律 与 言语 节律 之 间 的 
协同 性 能 够 帮助 听 者 更 好 的 捕捉 目标 言语 内 容 
(Bosker & Peeters, 2021; Poeppel & Assaneo, 
2020)。 所 以 言语 理解 得 益 于 这 些 外 部 节律 特征 ， 
它们 不 但 能 够 帮助 听 者 理解 和 降低 处 理 成 本 ， 还 
能 调节 音素 、 词 汇 和 句子 层面 的 语音 处 理 。 

当 以 语音 材料 的 持续 时 间 为 对 象 研究 言语 节 
律 时 , 口语 中 声学 单元 的 持续 时 间 会 改变 说 话 者 
语 速 的 感知 。 语 速 快慢 通常 是 改变 口语 中 元 音 音 
程 百分比 (the percentage of vocalic intervals, %V) 
和 辅音 音程 的 标准 差 (the standard deviation of 
consonantal intervals，deltaC) 进 而 影 响 节律 感知 ， 
但 这 一 现象 并 非 所 有 语种 中 都 存在 ， 如 法 语 的 语 
速 快慢 并 不 影响 deltaC 的 变异 系数 (Dellwo, 2006; 
Dellwo & Wagner, 2003)。 所 以 不 同 语种 中 涉及 语 
速 变化 是 否 能 直接 影响 言语 节律 感知 仍旧 存在 争 
议 ， 这 提示 进行 不 同 语言 中 涉及 声学 单元 持续 时 
间 的 研究 必须 关注 语 速 的 操控 。 

5.2 ”神经 夹带 一 一 联系 内 外 节律 的 可 能 机 制 

大 脑 神经 活动 的 揭示 使 研究 者 认为 ， 内 部 节 
律 性 神经 振荡 表征 了 言语 信号 ， 从 而 实现 听 者 对 
六 号 中 关键 信息 的 加 工 ,在 音节 感知 、 语 义 加 工 和 
句法 理解 方面 得 到 了 证 实 (Cason & Schoen, 2012; 
Kotz & Schmidt-Kassow, 2015; Schmidt-Kassow et 
al., 2013)。 近 些 年 ,大量 的 研究 发 现 大脑 内 的 神经 
振荡 在 时 间 上 可 能 存在 与 外 部 节律 性 刺激 间 的 夹 
带 现象 Kosem et al., 2018; Obleser & Kayser, 2019). 
由 于 持续 性 神经 活动 的 相位 反映 了 神经 元 兴奋 性 
的 节律 性 波动 ， 当 夹带 发 生 时 , 产生 夹带 效应 的 
神经 活动 与 外 部 刺激 在 时 间 上 相互 对 齐 时 ， 能 够 实 
现 稳定 地 调整 对 输入 刺激 的 加 工 增益 (Buzsaki & 
Draguhn, 2004; Lakatos et al., 2005; Vanthornhout 
et al., 2018)。 所 以 我 们 认为 神经 夹带 是 实现 言语 
时 解 中 内 外 部 节律 相互 联系 的 可 能 机 制 。 


het 


| 


:202303.09767v1 


chinaXiv 


第 8 期 陈 梁 杰 等 : 节律 在 听 


ChinaXiv 合 作 期 干 


觉 言 语 理解 中 的 作用 1923 


神经 夹带 现象 广泛 的 存在 于 外 部 节律 影响 言 
语 理解 的 过 程 中 。 它 为 大 脑 如 何 表征 言语 中 不 同 
层级 信息 提供 了 途径 。 对 言语 刺激 的 夹带 并 非 发 
生 于 某 一 特定 频段 中 ， 从 反应 声学 特征 的 gamma 
频段 到 语音 的 时 域 包 络 的 theta 频段 , 或 是 汉语 中 
F, 词 和 句 中 更 低 的 delta 频带 , 不 同 层级 下 的 节 
律 大 脑 都 有 相对 应 的 神经 振荡 产生 夹带 (Giraud & 
Poeppel, 2012; Peelle & Davis, 2012)。 神 经 夹带 还 
说 明了 韵律 结构 节律 或 语 境 节 律 的 建立 对 当下 言 
语 理解 的 影响 可 能 是 由 于 自身 所 具有 的 自我 维持 
特性 。 即 在 事先 输入 的 节律 刺激 变化 后 已 经 产 9 
的 夹带 仍旧 可 以 持续 一 段 时 间 进 而 影响 当前 输入 
言语 刺激 的 加 工 (K6sem et al., 2018)。 对 身体 言语 
的 夹带 有 助 于 跨 脑 区 间 信 息 交流 的 锁 时 性 ,确保 
运动 信息 能 够 与 言语 信息 精确 的 整合 (Park et al., 
2016)。 

听 者 自 上 而 下 认 知 过 程 调节 神经 夹带 为 选择 
性 注意 、 先 验 知识 和 预期 在 言语 理解 中 的 作用 提 
供 了 生理 层面 解释 。 听 者 的 选择 性 注意 通过 神经 夹 
带 使 得 高 兴奋 性 的 神经 集群 能 够 更 为 集中 地 表征 
目标 刺激 ,进而 提高 目标 言语 的 识别 率 (Calderone 
et al., 2014; Golumbic et al., 2013; Knudsen, 2018; 
Lavie，1995)。 反 之 ,神经 活动 会 阻碍 无 法 对 齐 的 
感觉 刺激 的 表征 建立 ,因为 它们 会 随机 地 放大 或 
衰减 信息 (Lakatos et al., 2019), 先 验 的 语法 知识 则 
通过 同时 对 言语 中 不 同 层级 单位 的 夹带 实现 层级 
间 的 整合 的 精确 性 (Ding et al., 2016; Ding, Melloni 
et al., 2017)。 而 当 听 者 理解 上 下 文 内 容 时 ， 对 于 之 
后 出 现 词 汇 的 预期 能 够 加 强 在 加 工 词汇 时 的 夹带 
强度 , 促进 词汇 的 早期 发 音 编 码 加 工 (Broderick et 
al.，2019)。 所 以 我 们 认为 神经 夹带 不 单 是 一 种 被 
动 相应 外 部 节律 性 刺激 的 大 脑 活动 ， 还 能 够 根据 
听 者 的 认 知 状态 创建 一 个 合适 的 当前 言语 理解 的 
加 工 环境 。 它 作为 量化 两 种 节律 性 活动 一 致 性 关 


在 神经 振荡 之 间 的 耦合 产生 ， 还 是 一 连 串 刺激 引 
起 的 一 系列 神经 元 诱发 电位 。 在 许多 情况 下 ， 所 
谓 的 夹带 可 能 只 是 来 自 于 声音 的 规律 性 输入 而 引 
起 的 一 系列 神经 元 诱发 响应 ,而 非 真正 的 神经 振 
荡 (Obleser & Kayser, 2019; Poeppel & Assaneo, 
2020). 

随 着 非 侵 入 性 脑 刺 激 技 术 的 发 展 , 研究 者 不 
在 局 限于 被 动 记录 听 者 的 大 脑 活动 ， 而 开始 采用 
外 加 干预 的 形式 探究 神经 振荡 对 言语 理解 的 影 
响 。 经 颅 交 流 电 刺激 (tACS) 相 比 于 经 颅 磁 刺 激 
(TMS) 是 一 种 完全 无 声 的 刺激 手段 ， 可 以 排除 任 
务 中 实验 外 声音 的 干扰 (Feher et al., 2017; Raco et 
al.，2016)。 当 听 者 在 加 工 言语 刺激 时 对 其 里 叶 区 
施加 tACS, 干扰 theta 频 段 神经 振荡 的 活动 ， 结 
发 现 受到 干扰 的 神经 活动 导致 神经 夹带 破坏 ,并 
表现 出 言语 可 懂 度 成 绩 的 下 降 (Riecke et al., 2018; 
Wilsch et al., 2018; Zoefel et al., 2018). 相反， 如 果 
将 言语 刺激 的 包 络 作为 电 刺 激 模 态 时 ， 对 头皮 的 
刺激 能 够 提高 听 者 在 噪声 环境 下 的 言语 理解 能 
(Keshavarzi & Reichenbach, 2020)。tACS 在 刺激 频 
率 和 相位 上 与 节律 性 听觉 刺激 对 齐 ， 有 助 于 听 皮 
层 对 连续 听觉 事件 的 感知 (Wilsch et al., 2018; 
Zoefel et al., 2018)。 未 来 研究 中 ,无 论 是 控制 神经 
振荡 与 外 部 刺激 的 同步 化 还 是 去 同步 化 ,都 有 助 
于 提供 神经 振荡 在 言语 知觉 中 的 作用 的 更 直接 证 
据 。 并 且 这 种 对 大 脑 振 荡 的 “实验 性 ”影响 允许 通 
过 检查 其 功能 结果 来 确定 大 脑 振 荡 是 否 因果 驱动 
大 脑 功能 ， 而 不 是 一 种 副 现 象 活动 (Vosskuhl et al., 
2018)。 
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听觉 言语 理解 涉及 多 尺度 内 外 部 节律 的 共同 
参与 。 我 们 首先 通过 韵律 结构 节律 、 语 境 节 律 和 
说 话 者 身体 语言 节律 三 类 常见 的 外 部 节律 ， 揭 示 


系 的 指标 , 已 成 为 描述 外 部 言语 与 大 脑 之 间 双 向 
关系 的 方法 ， 人 允许 研究 者 探究 节律 或 听 者 认 知 过 
程 是 如 何 影 响 言语 理解 。 
5.3 ”存在 的 挑战 

长 期 以 来 关于 大 脑 对 感觉 刺激 的 反应 是 否 与 
内 在 的 、 持 续 的 神经 振荡 有 关 一 直 存 在 争议 
(Doelling & Assaneo, 2021)， 大 脑 的 神经 夹带 是 否 
由 神经 振荡 所 产生 也 缺少 直接 证 据 。 人 研究 者 需要 
严谨 地 判断 结果 中 的 夹带 现象 是 由 外 部 刺激 和 内 


了 外 部 闻 律 能 够 影响 听觉 言语 理解 。 其 次 ,我 们 
描述 了 听 者 内 部 神经 振荡 与 神经 夹带 现象 在 言语 
理解 过 程 中 的 作用 。 最 后 ,我 们 根据 神经 夹带 受 
听 者 自 上 而 下 认 知 过 程 的 影响 ,探讨 神经 夹带 可 
能 是 联系 内 外 节律 的 关键 机 制 。 
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The role of rhythm in auditory speech understanding 


CHEN Liangjie, LIU Lei, GE Zhongshu, YANG Xiaodong, LI Liang 
(School of Psychological and Cognitive Sciences, Peking University, Beijing 100080, China) 


Abstract: Speech understanding is a mental process in which the listener receives external speech input and 
acquires meaning. In daily communication, speech comprehension is influenced by multi-scale rhythmic 
information, which usually includes the rhythm of prosodic structure, the rate of context, and the speaker's 
body language. They alter the listeners' phoneme discrimination, word perception, and speech intelligence in 
auditory speech understanding. Internal rhythms are neural oscillations in the brain, which can represent the 
hierarchical characteristics of external speech input at different time scales. The neural entrainment of 
external rhythmic stimulus and internal neural activity can optimize the brain's processing of speech 
stimulus and further enhance the internal representation of target speech by the top-down modulation of the 
listener's cognitive process. We think that it may be the key mechanism to build the interrelationship 
between internal and external rhythms and jointly affect speech understanding. The discovery of its 
mechanism can provide a window for the study of speech, which is a complex sequence with structural rules 
on multi-level time scales. 
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